Mô hình hồi quy là gì? Các công bố khoa học về Mô hình hồi quy
Mô hình hồi quy là một phương pháp trong thống kê và máy học để dự đoán giá trị của một biến phụ thuộc dựa trên nhiều biến độc lập. Mô hình hồi quy giả định một...
Mô hình hồi quy là một phương pháp trong thống kê và máy học để dự đoán giá trị của một biến phụ thuộc dựa trên nhiều biến độc lập. Mô hình hồi quy giả định một mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập và cố gắng tìm ra một hàm số tối ưu để ánh xạ các biến độc lập vào biến phụ thuộc.
Mô hình hồi quy có thể được áp dụng cho các loại dữ liệu liên tục hoặc rời rạc và có thể được sử dụng để dự đoán giá trị trong tương lai hoặc giải thích mối quan hệ giữa các biến. Các phương pháp hồi quy phổ biến bao gồm hồi quy tuyến tính, hồi quy logistic, hồi quy đa thức và hồi quy thần kinh mạng.
Mô hình hồi quy đặt mục tiêu là tìm ra mối quan hệ tuyến tính giữa biến phụ thuộc (y) và các biến độc lập (x₁, x₂, ..., xn). Phương pháp này dựa trên giả định rằng mối quan hệ này có thể được biểu diễn bằng một phương trình tuyến tính của các biến độc lập.
Phương trình hồi quy đơn giản nhất là hồi quy tuyến tính. Dạng chung của phương trình hồi quy tuyến tính là:
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxn
Trong đó:
- y là biến phụ thuộc cần dự đoán.
- x₁, x₂, ..., xn là các biến độc lập được sử dụng để dự đoán y.
- β₀, β₁, β₂, ..., βₙ là các hệ số hồi quy, thể hiện mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc.
Mục tiêu của mô hình hồi quy là tìm ra các hệ số hồi quy (β₀, β₁, β₂, ..., βₙ) sao cho phương trình tối ưu hóa khả năng dự đoán của mô hình. Quá trình này thường được thực hiện bằng cách sử dụng các phương pháp như tối thiểu hóa sai số bình phương nhỏ nhất (Least Squares), lập trình tuyến tính, gradient descent và nhiều phương pháp khác.
Có nhiều biến thể khác nhau của mô hình hồi quy như hồi quy đa thức (khi thêm các biến lên mũ khác nhau), hồi quy logistic (cho biến phụ thuộc có giá trị rời rạc), hồi quy ridge (giảm thiểu overfitting) và hồi quy Lasso (điều chỉnh tỷ lệ ảnh hưởng của các biến độc lập).
Mô hình hồi quy tuyến tính là một phương pháp dự đoán giá trị của biến phụ thuộc dựa trên một hoặc nhiều biến độc lập. Mô hình này dựa trên giả định rằng có một mối quan hệ tuyến tính giữa biến phụ thuộc và các biến độc lập.
Phương trình hồi quy tuyến tính có dạng:
y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxn
Trong đó:
- y là biến phụ thuộc cần được dự đoán.
- x₁, x₂, ..., xn là các biến độc lập.
- β₀, β₁, β₂, ..., βₙ là các hệ số hồi quy, biểu diễn mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc.
Mục tiêu của mô hình hồi quy tuyến tính là tìm ra các giá trị của β₀, β₁, β₂, ..., βₙ sao cho mô hình hồi quy có khả năng dự đoán tốt nhất. Để làm được điều đó, ta cần sử dụng các phương pháp ước lượng hệ số, như phương pháp tối thiểu hóa sai số bình phương nhỏ nhất (Least Squares Method), phương pháp các đặc trưng tiêu biểu (Stepwise Feature Selection Method) hoặc các phương pháp tối ưu hóa khác.
Ngoài phương trình hồi quy tuyến tính đơn giản, còn có thể sử dụng các biến độc lập với dạng đa thức, tức là biến được tăng lên mũ. Ví dụ, ta có thể thêm các biến x₁², x₁³, ... vào phương trình để khám phá mối quan hệ phi tuyến. Điều này giúp mô hình hồi quy tuyến tính linh hoạt hơn và có thể xấp xỉ tốt hơn với môi trường dữ liệu thực tế.
Mô hình hồi quy tuyến tính cũng có thể được sử dụng cho dữ liệu không chỉ có biến phụ thuộc liên tục mà còn có biến phụ thuộc rời rạc. Khi biến phụ thuộc là các giá trị rời rạc, ta có thể sử dụng mô hình hồi quy logistic để dự đoán xác suất xảy ra của một sự kiện, với giá trị dự đoán nằm trong khoảng từ 0 đến 1.
Danh sách công bố khoa học về chủ đề "mô hình hồi quy":
Dựa trên một số lượng lớn các thí nghiệm mô phỏng Monte Carlo trên một mạng lưới đều đặn, chúng tôi so sánh các tính chất của kiểm tra Moran's I và kiểm tra nhân tử Lagrange đối với phụ thuộc không gian, tức là đối với cả tự tương quan lỗi không gian và biến phụ thuộc được suy rộng không gian. Chúng tôi xem xét cả độ chệch và sức mạnh của các bài kiểm tra cho sáu cỡ mẫu, từ hai mươi lăm đến 225 quan sát, cho các cấu trúc khác nhau của ma trận trọng số không gian, cho nhiều phân bố lỗi bên dưới, cho các ma trận trọng số được chỉ định sai, và cho tình huống khi có hiệu ứng ranh giới. Kết quả cung cấp chỉ số về các cỡ mẫu mà các tính chất tiệm cận của các bài kiểm tra có thể được xem là có hiệu lực. Chúng cũng minh họa sức mạnh của các bài kiểm tra nhân tử Lagrange để phân biệt giữa phụ thuộc không gian thực chất (trễ không gian) và phụ thuộc không gian như một phiền nhiễu (tự tương quan lỗi).
Các kỹ thuật tỷ lệ màu được sử dụng để suy diễn nồng độ chlorophyll từ dữ liệu bức xạ của máy quét màu vùng nước ven biển (CZCS) không hiệu quả ở những vùng có nồng độ vật chất lơ lửng và gelbstoff cao (thường được định nghĩa quang học là nước loại II). Để xem xét tất cả các thành phần nước làm biến đổi trường bức xạ phản xạ cũng như độ bức xạ của đường đi khí dung, một kỹ thuật mô hình hồi quy ngược dựa trên xấp xỉ truyền bức xạ hai dòng và quy trình tối ưu hóa simplex đã được phát triển. Kỹ thuật này sử dụng đồng thời độ bức xạ của bốn kênh phổ CZCS đầu tiên và tối thiểu hóa sự khác biệt χ2 giữa độ bức xạ mô hình và độ bức xạ "đã được hiệu chỉnh Rayleigh" từ CZCS. Mô hình hai dòng được hiệu chỉnh với một tập hợp dữ liệu bức xạ đã được mô phỏng bằng mô hình truyền bức xạ toán tử ma trận. Trong một thử nghiệm đầu tiên, quy trình mô hình hồi quy ngược đã được sử dụng để tạo ra bản đồ phân bố định lượng của chlorophyll fitoplankton, vật chất lơ lửng (trọng lượng khô), và gelbstoff; độ bức xạ đường đi khí dung; và chiều sâu tín hiệu của Biển Bắc. Bằng cách đưa vào độ bức xạ đường đi khí dung như một biến, quy trình này ngụ ý việc hiệu chỉnh khí quyển. Một bản đồ các giá trị còn lại χ2 cho thấy sự thành công của việc phục hồi cho từng pixel.
Simulink được sử dụng rộng rãi trong ngành công nghiệp để mô hình hóa và mô phỏng các hệ thống nhúng. Với việc sử dụng ngày càng tăng của các hệ thống nhúng trong các tình huống an toàn thời gian thực quan trọng, Simulink trở nên thiếu khả năng phân tích yêu cầu (thời gian) với độ tin cậy cao. Trong bài viết này, chúng tôi áp dụng Tính toán Khoảng thời gian Thời gian (TIC) - một ngôn ngữ đặc tả thời gian thực, để bổ sung khả năng kiểm định chính quy TIC cho Simulink. Chúng tôi xây dựng một cách tỉ mỉ các hàm thư viện TIC để mô hình hóa các khối thư viện Simulink, được sử dụng để tạo thành các sơ đồ Simulink. Tiếp theo, các sơ đồ Simulink được tự động chuyển đổi thành các mô hình TIC, bảo toàn các khía cạnh chức năng và thời gian. Các yêu cầu quan trọng như liveness bị giới hạn thời gian có thể được đặc tả chính xác trong TIC cho toàn bộ sơ đồ hoặc một số thành phần. Cuối cùng, việc xác thực các mô hình TIC có thể được tiến hành chặt chẽ với một mức độ tự động hóa cao bằng cách sử dụng một công cụ định lý chung. Khuôn khổ của chúng tôi có thể mở rộng không gian thiết kế bằng cách đại diện cho các thuộc tính môi trường cho các hệ thống mở và xử lý các sơ đồ phức tạp vì việc phân tích hành vi liên tục và rời rạc được hỗ trợ.
Làn sóng đầu tiên của đại dịch COVID-19 đã thay đổi một cách đáng kể cuộc sống của mọi người trên toàn thế giới. Để đối phó với sự gián đoạn này, các giải pháp kỹ thuật số đã trở nên phổ biến hơn. Tuy nhiên, khả năng áp dụng các giải pháp kỹ thuật số khác nhau giữa các nhóm xã hội - kinh tế và xã hội - nhân khẩu học.
Nghiên cứu này điều tra cách mà các cá nhân đã thay đổi mô hình di chuyển và sử dụng internet trong giai đoạn đầu của đại dịch COVID-19, và những thay đổi nào trong số đó có thể được duy trì.
Một cuộc thu thập dữ liệu thực nghiệm đã được triển khai thông qua các biểu mẫu trực tuyến. 781 phản hồi từ các quốc gia khác nhau (Ý, Thụy Điển, Ấn Độ và các quốc gia khác) đã được thu thập, và một loạt các phân tích đa biến đã được tiến hành. Hai mô hình hồi quy tuyến tính được trình bày, liên quan đến sự thay đổi hoạt động di chuyển và sử dụng internet, trước và trong giai đoạn đại dịch. Hơn nữa, một mô hình hồi quy nhị phân được sử dụng để xem xét khả năng của các người trả lời trong việc áp dụng và duy trì hành vi của họ vượt ra ngoài giai đoạn đại dịch.
- 1
- 2
- 3
- 4
- 5
- 6
- 9